---
title: "ETL vs ELT"
date: 2023-05-01T19:31:31+03:00
description: "Обзорная заметка о ETL vs ELT"
tags: ["etl", "data", "elt", ]
ShowToc: true
ShowBreadCrumbs: true
draft: false
---

По видео: Что такое ETL и ELT за 10 минут. Разница подходов

<iframe
    width="560"
    height="315"
    src="https://www.youtube.com/embed/jxwbrjhLz38"
    title="YouTube video player"
    frameborder="0"
    allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share"
    allowfullscreen>
</iframe>

На основе статьи [ETL и ELT: разница в том, как…](https://biconsult.ru/services/etl-i-elt-raznica-v-tom-kak)

[ETL](https://ru.wikipedia.org/wiki/ETL) - один из основных процессов в управлении хранилищами данных, ETL – общий термин для всех процессов миграции данных из одного источника в другой (другие связанные с этим термины – экспорт, импорт, конвертация данных, парсинг файлов, web-scrapping и пр.)

![etl](/img/etl/etl.png)

Три ключевых этапа E, T, L:

1. Извлечение (E – extraction): получение необработанных данных из пула неструктурированных данных и их перенос во временное промежуточное хранилище данных.
2. Преобразование (T – transformation): структурирование, обогащение и преобразование необработанных данных, чтобы они соответствовали целевому источнику.
3. Загрузка (L – loading): загрузка структурированных данных в хранилище данных для анализа и использования инструментами бизнес-аналитики (BI).

[ELT](https://habr.com/ru/articles/695546/) — это сокращение от extraction, loading и transformation. По сути, ELT меняет местами два последних этапа процесса ETL, то есть после извлечения из баз данных данные загружаются напрямую в центральный репозиторий, где происходят все преобразования. Промежуточная база данных отсутствует.

![etl](/img/etl/elt.png)

IBM рассказывает о 5 вещах, которые требуются для современных проектов на основе больших данных, о необходимости новых концепций данных, таких как озеро данных. Это «5 V»:

1. Объем (Volume) сырых данных.
2. Разнообразие (Variety) – например, структурированные, неструктурированные, полуструктурированные данные.
3. Скорость (Velocity) – скорость обработки, сбора или анализа данных.
4. Достоверность (Veracity) – уровень доверия к данным.
5. Значение (Value) – значение, стоящее за данным

Подводя итоги: 10 плюсов и минусов ETL и ELT

Обобщая эти два подхода, мы сгруппировали различия по 10 критериям:

| № | Критерий | ETL | ELT |
|---|---|---|---|
| 1 | Время – Загрузка | использует промежуточную область и систему, дополнительное время для загрузки данных | все в одной системе, загрузка только один раз |
| 2 | Время – Преобразование | нужно подождать, особенно для больших объемов данных – по мере роста данных время преобразования увеличивается | все в одной системе, скорость не зависит от размера данных |
| 3 | Время – Обслуживание | высокий уровень обслуживания – выбор данных для загрузки и преобразования; необходимо сделать все снова, если данные удалены или вы хотите улучшить основное хранилище данных. | низкие эксплуатационные расходы – все данные всегда доступны |
| 4 | Сложность реализации | на ранней стадии требует меньше места, и результат будет чистый | требует глубоких знаний инструментов и экспертного проектирования основного большого хранилища. |
| 5 | Анализ и стиль обработки | основан на нескольких сценариях для создания представлений – удаление представления означает удаление данных | создание специальных представлений – низкие затраты на создание и обслуживание |
| 6 | Ограничение данных или ограничение на поставку | предполагая и выбирая данные априори | По HW (нет) и политике хранения данных |
| 7 | Поддержка хранилищ данных | преобладающая устаревшая модель, используемая для локальных и реляционных структурированных данных. | адаптировано для использования в масштабируемой облачной инфраструктуре для поддержки структурированных и неструктурированных источников больших данных |
| 8 | Поддержка озера данных | не является частью подхода | позволяет использовать озеро с поддержкой неструктурированных данных |
| 9 | Удобство использования | фиксированные таблицы, фиксированная временная шкала, используется в основном ИТ | ситуативность, гибкость, доступность для всех, от разработчика до гражданского интегратора |
| 10 | Рентабельность | нерентабельно для малого и среднего бизнеса | масштабируемость и доступность для бизнеса любого размера с использованием онлайн-решений SaaS |
